تن سازان امیر؛ مهدوی» محمدامین (۱۳۹۶). استخراج فراداده‌های متتی از مقاله‌های علمی به زبان فارسی با 
مدل آماری ۶ پژوهش‌های نظری وکاربردی در علم اطلاعات و دانش‌شناسی» ۱(۷ ۳۰۴- ۳۲۱. 


استخراج فراداده‌های متنی از مقاله‌های علمی به زبان فارسی 
با مدل آماری 01۳ 


امیر تن سازان. دانشجوی کارشناسی ارشد مهندسی کامپیوتر- گرایش نرم افزار دانشگاه بین المللی امام خمینی (ره) قزوین؛ 
حمم, اتقصع ۵ .12,40 


محمد امین مهد‌وی. استادیار دانشکده فنی و مهندسی. دانشگاه بین المللی امام خمینی (ره) قزوین» ۵608.1110.26.17) ۳۱۵0۵۷1 
تاریخ دریافت: ۹۵/۶/۸ تاریخ پذیرش: ۹۵/۸/۱۸ 


چکیده: 


مقدمه: استخراج فراداده‌های متتی از مقاله‌های علمی به شکل دستی کار زمان‌بر و 
پرهزینه‌ای است. وجود تنوع در قالب‌های ساختاری مقالات علمی نیز به پیچی دگی مسئله 
دوفصلنامه | (علمی پژوهشی) 


۳ پژوهش‌های نظری و کاربردی در علم 
مسئله مطرح است و از الگوریتم‌های مختلفی می‌توان برای استخراج فراداده‌ها استفاده اطلاعات و دانش شناسی 


کرد. هدف این مقاله ارائه‌ی یک چارچوب برای استخراج فراداده‌های متنی از مقاله‌های 


می‌افزاید. بتابراین» استخراج خو دکار فراداده‌های متنی از مقاله‌های علمی به عنوان یک 


شاپا (آنلاین): ۴۱۱۲-۲۵۳۸ 
علمی به زبان فارسی است. در این پژوهش از مدل آماری س ی آر اف برای استخراج 

3 ی 60۰/090۰0۵ 
فراداده‌ها استفاده شده است. 


سال ۷ (شماره ۱) 


روش‌شناسی: این مقاله یک بژوهش کاربردی است. در این مقاله با مطالعات 
وس‌سناسیی. این یث پژوهس کاریره ر این ۰ ۳ 


کتایخانه‌ای و آزمایش سعی شده است یکت چارچوب برای استخراج فراداده‌ها ارائه 
شود. چارچوب ارائه شده شامل شناسایی س رآیند و مراجع انگلیسی و فارسی مقاله است. 
از مد لآماری س یآ ر اف برای استخراج فراداده‌ها از س رآ یند و مراجع فارسی و انگلیسی 
استفاده شده است. با تعریف ویژگی‌های مختلف این مدل آماری قابل تغییر است. 
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آزمایش این روش بروی صد مقاله از مجلات علمی- پژوهشی ایران درصد موفقیت آن 
دیگر مانند مدل مخفی ما رکوف دقت بالاتری را ارائه می‌دهد. از سوی دیگر این مدل بر 


مبنای آمار و ریاضی برچسب‌زنی را انجام می‌دهد. استخراج فراداده‌ها از مقالات با 


سال ۸۷ شماره ۱ بهار و تابستان ۱۳۹۶ استخراج فراداده‌های متنی از مقاله‌های علمی... ۳۰۵ 


قالب‌های مختلف به کمک آمار نسبت به روش‌های مبتتی بر قانون نتایج بهتری را به دنبال دارد. بتابراین استفاده از مدل آماری 
س یآ ر اف برای حل این مسثله مناسب است. 

یافنه ها» برای ارزیابی روش پیشنهاد شده از معیار اف استفاده شده است. مقدار معیار اف در این پژوهش برای هر توکن متنی 
محاسبه شده است. مقدار معیار اف به شکل میانگین یرای فراداده‌های سر بندء فراداده‌های مراجع فارسی و فراداده‌های مراجع 
انگلیسی به ترتیب ۹۶/۸٩‏ درصدء ٩۲/۸۷‏ درصد و ٩۴/۷۵‏ درصد است. نتایج این پژوهش با سه پژوهش مشابه در زبان انگلیسی 
مقایسه شده است. مقایسه میانگین نعایج به‌دست آمده نشان می‌دهد در فراداده‌های س رآیند نتایج پژوهش این مقاله بهتر از دو 
پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در س رآیند در پژوهش‌های زبان انگلیسی بهتر است. 
برای فراداده چکیده در پژوهش زبان فارسی» نتایج بهتری به‌دست آمده است. مقایسه میانگین نتایج استخراج فراداده‌های مراجع» 
نشان می‌دهد پژوهش‌های زبان این دفت بالائری ارائه داده‌اند. نتا یج استخراج فراداده موُسسه در مراجع فارسی مسبت به 
فراداده‌های دیگر ضعیف ت ر است. 

بحث و ننیج هگیری: بررسی نتایج بدست آمده نشان می‌دهد که عملکرد مدل آماری س ی آر اف برای استخراج فراداده‌ها 


حوب است. بیشترین دفت برای فراداده چکیده با معیار اف برابر ۹۹/۶ درصد است. این فراداده تعداد ت وکن بسیار بیشتری نسبت 


به بقّیه فراداده‌ها دارد. دقت فراداده موسسه با معیار اف برایر ۸۰/۹۵ درصد کمتر از بقیه است. دو دلیل در کاهش دفت موثر 
است. تعداد این فراداده در پیکره متون نسبت به فراداده‌های دیگ رکمتر است. علاوه بر اي ن کلمات نحوی که در این فراداده 
به کار می رود تنوع بیشتری دارد. در مراجع فارسی اسامی شهرها در فراداده‌های مکان و موّسسه ب ه کار می‌رود. این مسئله 
باعث می‌شود در برعی از موارد فراداده‌های مکان و موسسه به اشتباه تشخیص داده شوند. در زبان فارس ی کلمات که به شکل 
مشت رک در فراداده‌های مختلف ب هکار می‌روند نسبت به زبان انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایران یکه برای ام 
افراد ب هکار می‌رود با معانی دیگر در فراداده‌های دیگر استفاده می‌شود. این مستله ممکن است باعث بروز خطا شود. اکثر 
عطاهای به‌ و جود آمده در استخراج فراداده‌ها مربوط به ت وکن‌هایی است که در مرز دو فراداده قرار دارند. تبدیل مقالات علمی 
فارسی با فرمت پی دی اف به فرمت متن در موارد زیادی با مشکل رو به رو است و از محدودیت‌های این پژوهش به شمار 
میآید. در این پژوهش مجموعه‌ای از صد مقاله علمی استفاده شد. افزايش تعداد مقاله‌های علمی و تنوع بیشتر مقالات برای 
آزمایش می‌تواند در نتیجه‌ی بدست 7 مده تاثیر مثیتی داشته باشد. مجموعه‌ای از ویژگی‌های متسی در الگوریتم‌های برچسبزنی 
س یآ ر اف استفاده می‌شود. تغییر در این ویژگی‌ها می‌نواند موجب پهینه‌سازی روش شود. 


کلید واژه‌ها: استخراج فراداده‌های متنی» مقاله‌های علمی» پردازش زبان فارسی, الگوریتم 10[۳. 


مقدمه 

مقاله‌های علمی نقش مهمی در دنیای پژوهش دارند. آخرین یافته‌های علمی در حوزه‌های مختلف 
در مقاله‌ها منتشر می‌شود. دسترسی به یافته‌های جدید و پژوهش‌های روز از ملزومات تحقیق در یک زمینه 
علمی است. دسترسی به پژوهش های جدید و مرتبط به جستجو نیاز دارد. حجم انبوه مقاله‌ها و نبود 
فراداده‌های متنی مقالات. امکان جستجوی مقاله‌های علمی را دشوار می کند (2015 ,.21 66 /۲16۵671). 


۶ پژوهش‌های نظری و کاربردی در علم اطلاعات و دانش‌شناسی» دانشگاه فردوسی مشهد سال ۰۷ شماره ۱ بهار و تابستان۱۳۹۶ 


امروزه کتابخانه‌های دیجیتال و وب سایت‌های مجلات علمی و موتورهای جستجوء دسترسی و 
جستجوی هوشمند مقاله‌های علمی منتشر شده را برای پژوهشگران فراهم می کنند. این کتابخانه‌ها برای 
نمایه‌سازی مقاله‌های علمی به فراداده‌های هی مقاله‌ها نیاز دارند (2015 ,.21 66 >11620701). اطلاعاتی 
مانند نویسنده, عنوان» تاریخ» چکیده و نام انتشارات فراداده‌های مقاله‌های علمی هستند. علاوه بر این؛ 
کتابخانه‌های دیجیتال برای نمایه‌سازی مراجع مقالات و نمایش مقاله‌های مرتبط به یک جستجو و محاسبه 
شاخص ارجاع" به فراداده‌های مراجع نیاز دارند. نام نویسندگان؛ عنوان» منبع» تاریخ و موسسه از جمله 
فراداده‌های مراجع در مقاله‌های علمی هستند (20110 ,310 200 00). 

فراداده‌های مقاله را می توان در سه دسته قرار داد. دسته اول فراداده‌های آنتاه مقاله که شامل 
اطلاعاتی مانند عنوان» چکیده و نویسند گان است. دسته دوم؛ فراداده‌های مراجع که اطلاعاتی مانند 
نویسنده عنوان» تاریخ و منبع در هر مرجع است. دسته سوم فراداده‌های بدنه مقاله است. عناوین اصلی و 
فرعی مقاله از جمله فراداده‌های بدنه مقاله است. اکثر روش‌ها برای فراداده‌های سرآیند یا مراجع ارائه 
شده‌اند. 

استخراج فراداده‌های متنی به شکل دستی کار هزینه‌بری است. از این‌رو ایجاد روش‌هایی برای 
استخراج خود کار فراداده‌های متتی مقالات ضروری است. این کار به‌دلیل تنوع فرمت مقالات و سبک‌های 
مختلف مراجع آنها چالش محسوب می‌شود (20112 بط 224 مبا0)). 

در این مقاله چارچوبی برای استخراج فراداده‌های متنی مقاله‌های علمی به زبان فارسی ارائه 
می‌شود. در بخش اول کارهایی که در گذشته در اين زمینه در زبان‌های دیگر انجام شده است. مرور 
می‌شود. در بخش دوم الگوریتم برچسب‌زنی سی آر اف" معرفی می‌شود. در بخش سوم روش پیشنهادی 
برای مقاله‌های فارسی بیان می‌شود. در بخش چهارم پیکره متونی که تست روش بر روی آنها انجام شده 


است و نتایج به‌دست آمده از تست روش بروی پیکره متون ارائه می‌شود. 


مروری بر کارهای گذشته 
تاکنون روش‌های مختلفی برای استخراج فراداده‌های متنی در زبان انگلیسی ارائه شده است. 


این‌روش‌ها را می توان در دو دسته قرار داد. دسته اول روش‌های مبتنی بر قاعده و الکو و دسته دوم 
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روش‌های مبتنی بر یاد گیری (2015 .21 64 >11۵62(1). 
در روش‌های مبتنی بر قاعده ! قوانینی تعریف می‌شود که با استفاده از آنها فراداده‌های متنی مقاله استخراج 
می‌شوند. و شض (۲۰۱۱2) چارچوبی را برای استخراج فراداده‌های سرآیند ارائه داده است. در این 
چارچوب برای استخراج فراداده‌ها. مجموعه قوانین مرتبط با ویژگی‌های فرمت و محتوای متن مقاله 
تعریف شده است. تکه‌های متنی مقاله و ویژگی‌های فرمت از تبدیل پی دی اف" به فرمت ایکس ام ال" 
فراهم شده است. جیوفریدا؛ شک و یانگ" (۲۰۰۰) روشی برای استخراج فراداده‌های سر آیند مقاله‌ها با 
فرمت پست اسکرییت " ارائه کرده است. در این‌روش از وی گی‌های ظاهری و بضری مقاله استفاده 
می‌شود. این ویژگی‌ها توسط ابزار پی اس تو تکست" فراهم می‌شود. بیل "و همکاران (۲۰۱۰) روشی مبتنی 
مبتنی بر قانون برای استخراج عنوان ارائه داده است که در آن پس از تبدیل فرمت پی دی اف به فرمت 
ایکس ام ال از اندازه فونت و موقعیت مکانی متن برای شناسایی عنوان استفاده شده است. گو و جین 
(۲۰۱۱۵) برای استخراج فراداده‌های مراجع مقاله روشی بر مبنای تطبیق الگو ارائه داد. در این‌روش براساس 
سبک‌های مختلف مرجع نویسی» مجموعه‌ای از الگوها تعریف شده و با تطبیق الگو فراداده‌های هر مرجع 
استخراج می‌شود. 

روش‌های مبتنی بر یاد گیری برای استخراج فراداده‌های متنی در قالب طبقه‌بندی" و برچسب‌زنی ۲ 
دنباله قرار می گيرند. بخش‌هایی که برای طبقه‌بندی و برچسب‌زنی مورد استفاده قرار می‌گیرد» بلاکك» سطر 
و کلمات مقاله است (2015 .81 6۱ ۲1۵02(1). کواسویچ"" و همکارانش (۲۰۱۱) روشی را براساس 
الگوریتم اس وی ام" برای استخراج فراداده‌های سرآیند ارائه دادند. در این‌روش سطرهای مقاله طبقه‌بندی 
شده‌اند و ویژگی‌های مرتبط با کلمه و سطر برای طبقه‌بندی تعریف و استفاده شده است. از ابزار پی دی 
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(۱۹۹۹) از الگوریتم مدل مخفی مار کوف برای برچسب‌زنی کلمات سرآیند مقاله و استخراج فراداده‌های 
متنی استفاده کرد. پنگ و مکالوم" (۲۰۰۶) ایده به کار گیری الگوریتم سی آر اف را برای استخراج 
فراداده‌های سرآیند و فراداده‌های مراجع را مورد بررسی قرار داد. در این‌روش. دنباله‌ای از کلمات سرآیند 
و دنباله‌ای از کلمات هر مرجع برچسب‌زنن ظده‌اند: هان "و همکاوانش (۲۰۰۳) روشی براساس الگوریتم 
اس وی ام اراثه دادند. در این‌روش از طبقه‌بندی دو مرحله‌ای برای سطرهای مقاله استفاده می شود. برای 
استخراج ویژگی‌های طبقه‌بندی از خوشه‌بندی کلمات مقاله استفاده شده است. کانسیل» گیلز و کان" 
(۲۰۰۸) از الگوریتم سی آر اف برای استخراج فراداده‌های مراجع استفاده کرد. شناسایی و تفکیک مراجع 
قبل از پردازش توسط قواعد ساده انجام شده است. ژانگ " و همکارانش (۲۰۱۱) از الگوریتم اس وی ام 
ساختاریافته" برای پارس مراجع مقاله‌های علمی استفاده کرد. در این‌روش علاوه بر ویژگی‌های توکن از 
ویژگی‌های تو کن‌های همسایه در بر چسب‌زنی هر مرجع استفاده شده است. هتزنر " (۲۰۰۸) روشی را برای 
استخراج فراداده‌های مراجع براساس مدل مخفی مار کوف ارائه داد. 

تکاسزیک و همکارانش (۲۰۱۵) چارچوبی را برای استخراج فراداده‌های سرآیند و مراجع مقاله 
ارائه داد که کل متن مقاله را پردازش می کند. در این چارچوب از کتابخانه آی تکست "و الگوریتم داکک 
استرام" برای قطعه‌بندی متن مقاله استفاده شده است. الگوریتم اس وی ام برای طبقه‌بندی بلوک‌های متتی 
مقاله و الگوریتم سی آر اف برای استخراج فراداده‌های مراجع استفاده شده است. تفکیک مراجع نیز با 
استفاده از خوشه‌بندی نزدیک‌ترین همسایگی انجام شده است. کاندیاس* (۲۰۱۱) چارچوبی را ارائه داد 
که در آن علاوه بر فراداده‌های سرآیند و مراجعء بدنه و عناوین بخش‌های مقاله استخراج می‌شود. از 
الگوریتم سی آر اف برای پردازش استفاده شده است. ابزار پی دی اف تو اج تی ام ال برای استخراج 
ویژگی‌های فرمت در این‌روش استفاده شده است. 

ابزارهای مختلفی در زبان انگلیسی برای استخراج فراداده‌ها از مقاله‌های علمی وجود دارد. برای 


مثال سی بی تو بیب ‏ نرم‌افزاری رایگان برای استخراج داده‌های کتاب‌شناسی از مقاله‌های پی دی اف و 
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صفحات وب است. در این نرم‌افزار مجموعه‌ای از الگوهای از پیش تعریف شده برای استخراج فراداده‌ها 
استفاده می‌شود. فراداده‌های استخراج شده با فرمت بیب تکس " ذخیره می‌شوند. امکان مدیریت فایل‌های 
کتاب شناسی و مقالات در این نرم‌افزار فراهم شده است (2016 ,0۷۵۳۷:0۷ 0ط02). پارس سایت" ابزار 
ابزار دیگری است که از الگوریتم سی آر اف برای استخراج فراداده‌های متنی از مراجع مقاله‌های علمی و 
استخراج ساختار مقاله‌های انگلیسی استفاده می کند. امکان ذخیره‌سازی فراداده‌های استخراج شده با 
فرمت‌های مختلف مانند بیب تکس " و ایکس ام ال در اين ابزار فراهم شده است (2016 با۳۵:56). 
مدل آماری سی آر اف 

لسن ان اف شکلی ال گرانن هدایت نشده " است که توزیع خطی- لگاریتمی روی دنباله 
برچسب‌ها را براساس دنباله مشاهدات داده شده تعربف می کند. احتمال شرطی دنباله برچسب‌های - ۷ 
۷۱۰۰۰ و دنباله مشاهدات : ... ,۷ < 2 به شکل زیر است (2004 ,211200 ۷۷): 


1 
)0۱ 1 5 )را 2 2 ۴ 7۹ < (2 ,|۳۷ 
ام 9 ۲ و و 
در این رابطه (200 ثابت نرمال‌سازی" است. ل( ,۷,5 ,,_ :)6 تابع ویژگی است. توابع ویژگی برای 
برای بیان خصوصیات داده‌ها؛ مجموعه‌ای از ویژگی‌های مشاهدات را تعریف می کند. تابع ویژگی " به دو 
شکل تابع حالت" و تابع انتقال" نمایش داده می‌شود. برای مثال یک تابع انتقال به شکل زیر تعریف 
می‌شود: 
<< ۱ 220 25026 ع را 1 0 رک ده له 
۳ موز سعطاه : 0 ۱ 3 0 بط ) ۲ 
(ذ,90 یک ویژ گی دو یا چند مقداری است. برای مثال: 


۳( 0 و1۱۶ ز 0و0 ج طموهوطاه فطل ۶ 1 


] رنه 

تابع حالت فقط برچسب فعلی را در نظر می گيرد. ر2... ,2 < ۸ پارامترهای توابع ویژگی هستند که 
از داده‌های یاد گیری تخمین زده می‌شوند. 

با مدل داده شده در معادله (۱) محتمل‌ترین دنباله برچسب‌ها برای دنباله مشاهدات به شکل زیر 


دداروت :۱9 0 


است (2001 ,۳۵۲61۲۵ مه ات۷ ,راه‌اکضا): 
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2 - 8 ِ ۱629 )۴( 


این معادله با کمک برنامه‌نویسی داینامیک و الگوریتم ویتربی" محاسبه می‌شود. 

تخمین پارامترها در الگوریتم سی آر اف با روش بیشترین درست‌نمایی" انجام می‌شود. در 
صورتی که داده‌های یادگیری به شکل ( 1,...۷ < 16 :1 )) باشد» حاصل ضرب معادله (۱) روی 
داده‌های یاد گیری به‌عنوان تابعی از پارامترهای ۸ به‌عنوان تابع درست‌نمایی شناخته می‌شود و با 
(2 ,()|(۳))۷۳ نمایش داده می‌شود. روش بیشترین درست‌نمایی» پارامترهای .2 را به گونه‌ای انتخاب 
می‌کند که الگوریتم درست‌نمایی با عنوان لگاریتم درست‌نمایی ‏ بیشترین مقدار را داشته باشد. برای 
الگوریتم سی آر اف مقدار لگاریتم درست‌نمایی به شکل زیر تعریف می‌ شود (2004 ,21126 ۷۷): 

)۵ ( (۱0۵)200 - (ا لایر و ما رلا) با < (10 

ماکزیمم کردن رابطه (۵) معادله تساوی (۶) را به‌وجود می‌آورد. در اين رابطه تعداد تجربی هر 

ویژگی با تعداد مورد انتظار آن در مدل(/۳00 تطبیق می‌یابد. 
(۶) (1ن تم 2 | 00 0( 5 9 مگ ی( 22 

برای حل رابطه بالا و تخمین پارامترهاء الگوریتم مقیاس گذاری تکراری" ارائه شده است. این 
الگوریتم سرعت کمی دارد. اثبات شده است که الگوریتم "1-9۳05 با سرعت بیشتری به ما کزیمم دست 
دست می‌یابد. بنابراین برای تخمین پارامترها از این الگوریتم استفاده می‌شود ( ,:۱1۵0۵[10 ۵00 ۳۵۵ 
206 
روش استخراج فراذاده‌ها 

در اینجا؛ مقالات علمی فارسی با فرمت متن به‌عنوان ورودی در نظر گرفته شده است؛ از این‌رو 
پردازش بر روی متن انجام می گیرد. به عبارتیء متن باید توسط ماشین قابل خواندن باشد. چارچوبی که 
برای استخراج فراداده‌های متنی از مقاله‌های علمی پیشنهاد شده است. به سه مرحله قابل تقسیم است. در 
مرحله اول بخش سرآیند و بخش مراجع در مقاله شناسایی می‌شود. در مرحله دوم مراجع فارسی و 
انگلیسی از بخش مراجع شناسایی و تفکیک می‌شوند. پس از اين کار مراجع مختلف مقاله شناسایی و از 
یکدیگر تفکیک می شوند. در مرحله سوم» سرآیند و مراجع مختلف فارسی و انگلیسی توسط سه 
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برچسب زن مجزای سی آر اف پردازش شده و فراداده‌های سرآیند» مراجع فارسی و مراجع انگلیسی 


استخراج می‌شود. شکل ۱ نمای کلی این چارچوب را نشان می‌دهد. 


شناسایی سر آیند و مراجع 

فراداده‌هایی که در روش پیشنهادی استخراج می‌ شود در سرآیند یا بخش مراجع مقاله قرار دارند؛ 
بنابراین» این دو بخش قبل از پردازش باید شناسایی شوند. برای این کار از ویژ گی‌های متنی استفاده 
می شود. شروع متن مقاله ابتلدای سر آیند مقاله است. انتهای سر آیند» شروع بخش مقدمه در مقاله است؛ 
بنابراین با کلمه کلیدی «مقدمه» این بخش شناسایی می‌شود. در برخی از مقاله‌های فارسی قبل از بخش 
مقلامهیاعتوان و بچکیده انکلیسی فراز گرفته ادن زوش بیشتهادع بتخفن انکلسیعرقی از سر ایند 
نیست؛ بنابراین در این حالت از قاعده دیگری برای شناسایی سرآیند استفاده می‌شود. در این حالت با 
پیمایش متن مقاله و رسیدن به کلمه "۵05/060 قبل از مقدمه مقاله پیمایش متن متوقف می‌شود و تا 
رسیدن به کلمات فارسی عقب گرد صورت می گيرد. 

شناسایی ابتدای بخش مراجع با استفاده از کلمات کلیدی مانند «منابع» و «مراجع» و ۲۳8۵]6۲60669۲ 
انجام می شود. در صورتی که پس از مراجعء» متن دیکری در مقاله نباشد. انتهای مقاله انتهای مراجم نیز 
خواهد بود. در غیر این صورت چند حالت ممکن است رخ دهد. در حالت اول پس از مراجع بخش 
دیگری قرار دارد. در این حالت به کمک کلمات کلیدی عناوین بخش‌های مقاله و طول سطرهای مقاله 
انتهای مراجع شناسایی می‌شود. در حالت دوم در برخی از مقاله‌های فارسی؛ عنوان و چکیده انگلیسی پس 
از بخش مراجع قرار گرفته است. در این حالت پس از پیمایش سطرهای مقاله از شروع بخش مراجع با 
رسیدن به سطری شامل کلمه "۵0507260" عقب گرد انجام می‌شود. این عقب گرد تا رسیدن به سطری که با 


علامت نقطه پایان یافته است ادامه می‌یابد. علت این کار این است که هر مرجعی در بخش مراجع با نقطه 


مراحل تفکیک مراجع 

بسیاری از مقاله‌های فارسی شامل مراجع انگلیسی و فارسی هستند. برای استخراج فراداده‌هاه این 
مراجع باید از یکدیگر تفکیک شوند. در مرحله اول مراجع فارسی و انگلیسی براساس الگو شناسایی و از 
یکدیگر تفکیک می‌شوند. برای این کار از تفاوت کاراکترهای انگلیسی و فارسی استفاده می‌شود. با این 
قاعده. در دو حالت امکان خطا وجود دارد. حالت اول زمانی است که سطری از بخش مراجع شامل 


کاراکترهای انگلیسی و فارسی باشد. در این حالت این سطر جزء مراجع فارسی است. زیرا گاهی در 
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مراجع فارسی کلمات انگلیسی به کار می‌رود. حالت دوم زمانی است که در مرجع فارسی یک سطر از 
کلمات انگلیسی وجود داشته باشد. در این حالت از تفاوت طول یک سطر با سطر قبلی‌اش در مراجع و 
کاراکترهای شروع مراجع مانند اعداد برای قرار دادن یک سطر در مراجع انگلیسی یا فارسی استفاده 
من شیو3: 

پس از تفکیک مراجع انگلیسی و فارسی؛ مراجع مختلف از یکدیگر جدا می‌شوند. این کار با 
شناسایی سطرهای شروع یا پایان هر مرجع امکان‌پذیر است. مراجع مقاله‌های مختلف در دو دسته قرار 
می گیرند. دسته اول مراجعی هستند که با نشانه‌هایی مانند «[۱] و «-» شروع می‌شوند. دسته دوم بدون 
نشانه‌اند. در دسته اول نشانه‌های شروع برای تشخیص سطر اول هر مرجع به کار گرفته می‌شود. مقاله‌های 
فارسی به دو شکل یک ستونه و دو ستونه نوشته می‌شوند. برای دسته دوم» مراجع با توجه به طول سطره 
یکی از دو حالت یک ستونه و دوستونه را خواهند داشت. در حالت یک ستونه تعداد سطر هر مرجع کمتر 
است و برخی از مراجع یک سطری هستند. در حالت دو ستونه تعداد سطرهای هر مرجع بیشتر از یک 


است. 


شکل ۱. استخراج فراداده‌ها از مقاله‌های علمی فارسی 


برای حالت دو ستونه از دو ویژگی برای تشخیص سطر انتهایی هر مرجع استفاده می‌شود. ویژگی اول اين 
است که هر مرجع با علامت نقطه پایان می‌پذیرد. ویژگی دوم تفاوت طول یک سطر با سطر قبلی‌اش در 
مراجع است. برای حالت یک ستونه نیز دو ویژگی برای شناسایی سطر پایانی استفاده می‌شود. ویژگی اول 
پایان یافتن هر مرجع با علامت نقطه و ویژگی دوم اينکه سطر ابتدایی هر مرجع شامل نام نویسنده یا حالت 
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مراحل استخراج فراذاده‌ها 

سرآیند مقاله و هر یک از مراجع فارسی و انگلیسی که در مرحله قبل شناسایی شده است در این 
مرحله ابتدا به مجموعه‌ای از توکن‌ها تجزیه می‌شوند و سه مجموعه توکن تشکیل می‌شود. تجزیه تنها با 
فضای خالی انجام می‌شود. علائم نگارشی به کلمه قبل از خود در بسیاری از موارد متصل هستند. کلماتی 
مانند «ها» که در زبان فارسی به شکل پیوسته و جدا نوشته می‌شوند» مشکلی را برای پردازش به‌وجود 
نمی آورند. برحی از حروف به دو شکل عربی و فارسی در توکن‌ها ظاهر می‌شوند. برای مثال دو «مجله» و 
«مجل». بنابراین قبل از پردازش حروف عربی به حروف فارسی تبدیل و تو کن‌ها اصلاح می‌شوند. 

سه برچسب‌زن سی آر اف برای استخراج فراداده‌های س رآیند» فراداده‌های مراجع فارسی و 
فراداده‌های مراجع انگلیسی استفاده می‌شود. فراداده‌های متنی براساس پیکره متون مقاله‌ها تعریف شده‌اند. 
برای هر برچسب‌زن» مجموعه‌ای از ویژگی‌ها و برچسب‌های مجزا تعربف شده است. مجموعه‌ای از 
ویژگی‌های تعریف شده برای برچسب‌زنی از هر یک از توکن‌های مربوطه استخراج می‌شود. این 
مجموعه بردار ویژگی! نام دارد. هر الگوریتم برچسب‌زنی سی آر اف با دریافت مجموعه‌ای از بردارهای 
ویژگی و برچسب‌های متناظ مدل یاد گیری را ایجاد می‌کند. پس از باد گیری داده‌های جدید با مدل 
ایجاد شده برچسب‌زنی می‌شوند. 

فراداده‌های سر آیند شامل عنوان» نویسندگان اطلاعات نویسندگان» چکیده کلمات کلیدی» نام 
مجله دوره شماره و صفحه مجله و تاریخ است. این فراداده‌هاء برچسب‌های الگوریتم سی آر اف سرآیند 
هستدهاین برعستزن دنباله‌ای از کلعات شرا ند را رتست زنی متی کند: .وید گی‌های کنهابرای 
بر چسب‌زنی سرآیند تعریف شده‌اند» به شکل زیر است: 
٩‏ توکن 
٩‏ یک توکن با رقم شروع شده یا پایان یافته باشد. بر اين اساس این ویژگی سه مقدار به خود می گیرد. 
9 توکن شامل علامت نقطه باشد. 
9 کاراکترهای توکن, انگلیسی پا فارسی باشند. 
٩‏ توکن شامل علامت نگارشی باشد. 
*_توکن با الگوی ایمیل تطبیق پیدا کند. 
٩‏ توکن یکی از کلمات عنوان بخش کلمات کلیدی مانند «کلیدواژه» باشد. 
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توکن شامل کلمه «چکیده» باشد. 

توکن شامل نکن از کلعانی. که اغلب در اطلاعات مجله به کار می‌روده مانند «مجله» و «دوره» باشد. 
توکن شامل یکی از کلماتی که اغلب در اطلاعات نویسندگان به کار می‌رود مانند «استادیار» و 
«دانشجو) باشد. 

توکن شامل کلمات ماه و فصل مانند «بهار» و «اردیبهشت» یا الگوی ارقام سال مانند «۱۳۹۳» باشد. 
توکن برابر الگوی صفحات مانند «ص,4 و 4۱۱۰-۱۰۰۶ باشد. 

توکن یکی از نام‌های شهرهای ایران باشد. 

توکن یکی از نام‌های ایرانی مردان و زنان باشد. 

شماره سطری که توکن در آن قرار گرفته است. 

موقعیت تو کن در سطر. این وی گی یکی از سه مقدار ابتدا؛ وسط و انتهای سطر را به محود مي‌گیرد. 


فراداده‌های مراجع فارسی شامل توبسنده» عنوان» تاریخ» منبع» دوره» شماره» موسسه. صفحه و 


مکان استتا: فر اداده مج در مراجع می تواند نام مجل نام انتشارات» نام کنفرانس و پایان‌نامه باشد. در 


الگوریتم سی آر اف مراجع فارسی؛ یک برچسب مشت رک برای فراداده دوره و شماره استفاده شده است. 


برای هر یک از فراداده‌های دیگر» یک برچسب مجزا تعریف شده است. دنباله توکن‌های هر مرجع فارسی 


توسط در این الگوریتم برچسب‌زنی می‌شود. ویژگی‌های تعریف شده برای این سی آر اف شامل موارد 


توکن 

توکن شامل کلمات ماه و فصل مانند «بهار» و «اردیبهشت» با الگوی ارقام سال مانند «۱۳۹۳)» باشد. 
توکن برابر الگوی صفحات مانند «ص» و ۱۱۰-۱۰۰۱ باشد. 

توکن شامل ارقام یا حروف يا هر دو باشد. 

توکن برابر الگوی مخفف اسامی مانند «م.»» باشد. 

توکن شامل علامت نگارشی باشد. اين ویژگی شش مقدار را براساس نوع علامت نگارشی به خود 
می گیرد. 

لو کزم شامل کلماتی مانند «مجله) باشد که در فراداده منبع به کار می‌رود. 

توکن شامل کلماتی که در موسسه به کار می‌رود مانند «دانشگاه» باشد. 


سال ۸۷ شماره ۱ بهار و تابستان ۱۳۹۶ استخراج فراداده‌های متنی از مقاله‌های علمی... ۳۱۵ 


توکن شامل کلماتی که در دوره و شماره مجله به کار می‌رود مانند «سال» باشد. 
توکن فقط شامل القبای انگلیسی باشد. 
توکن برابر اسامی یکی از شهرهای ایران باشد. 
توکن شامل یکی از نام‌های مردان و زنان ایرانی باشد. 
موقعیت توکن در هر مرجع. برای این ویژگی پنج موقعیت مکانی براساس تعداد توکن‌های مرجع 
تعریف شده است. 
اولین توکن مرجع باشد. 
فراداده‌های مراجع انگلیسی؛ عنوان» نویسنده» تاریخ» منبع» دوره» شماره. مکان و صفحه است. 


برای فراداده‌های دوره و شماره یک برچسب مشتر کک و برای هر یک از فراداده‌های دیگر» یک برچسب 
مجزا در الگوریتم سی آر اف مراجع انگلیسی در نظر گرفته شده است. دنباله تو کن‌های هر مرج انگلیسی 


توسط این الگوریتم برچسب‌زنی می‌شود. ویژ گی‌های زیر برای این برچسب‌زنی تعریف شده است: 


توکن 

الگوی ارقام سال مانند "2009" و کلمات ماه‌های میلادی مانند "۸/۵۲" 

الگوی صفحات مانند 00.۲" و "عم" 

شروع توکن با حروف بزرگگ انگلیسی 

توکن شامل حروف. اعداد با هر دو باشد. 

الگوی مخفف اسامی مانند ۵۳" و ۸.0۲" 

توکن شامل کلمات .21 6 باشد. 

توکن شامل علائم نگارشی باشد. براساس نوع علامت نگارشی این ویژگی شش مقدار مختلف را 
دریافت ی کت 

مجموعه کلماتی مانند "[0۵اه[" که در فراداده منبع اغلب به کار می‌رود. 

مجموعه کلماتی مانند "عصتاا۲۷0 که در فراداده دوره و شماره اغلب به کار می‌رود. 

مکان توکن در مرجع. این ویژگی براساس تعداد توکن مرجع محاسبه می‌شود و پنج مقدار دارد. 


پس از اینکه سه الگوریتم سی آر اف توکن‌های سرآیند» مراجع فارسی و مراجع انگلیسی را 


برچسب‌زنی کردنده توکن‌های برچسب خورده همسایه که برچسب یکسان دارند. به یکدیگر متصل 


می‌شوند و فراداده‌ها را تشکیل می‌دهند. 


۶ پژوهش‌های نظری و کاربردی در علم اطلاعات و دانش‌شناسی» دانشگاه فردوسی مشهد سال ۰۷ شماره ۱ بهار و تابستان۱۳۹۶ 


تفکیکت دوره و شماره 

توکن‌هایی که در برچسب زنی مراجع انگلیسی و فارسی برچسب دوره را دریافت کرده‌اند» شامل 
دو فراداده دوره و شماره هستند. پس از برچسب‌زنی و اتصال توکن‌های همسایه» این دو فراداده براساس 
الگوهای متنی» ارقام و علائم نگارشی شناسایی می‌شوند. در مراجع فارسی, الگوی «دوره (شماره:» 
کلمات «سال»» «دوره»» «جلد»» «شماره» «پیاپی» مخفف هر یک از این کلمات مانند «س» و در مراجع 
انگلیسی الگوی "(عطتصنه) عصباه ۲۷ کلمات ۲۷۵۱ "ما "ممناه۳۷ طخ( و "عناوو]" به- 
کار برده می‌شود. 
آزمایش 

برای قست روف بشهادی» ۱۰۰ مقاله مجلات خلت علمی- پژوهشی ابران اتشخاب شدء است: 
برای این کار مجموعه‌ای از مجلات علمی که در سامانه ارزیابی نشربات وزارت علوم ثبت شده‌اند استفاده 
شده است. مجموعه‌ای از مقاله‌ها به شکل تصادفی از این مجلات انتخاب شده‌اند. انتخاب مقاله‌ها به شکلی 
انجام شده است که تنوع فرمت در پیکره متون وجود داشته باشد. این مقاله‌ها در حوزه‌های علمی مختلف 
هستند و به شکل رایگان در وب سایت مجلات در دسترس هستند. تعداد مقاله‌های انتخاب شده مشابه 
پژوهش‌هایی در زبان انگلیسی مانند کواسویچ و همکارانش (۲۰۱۱) است که برای ارزیابی به شکل دستی 
پیکره متون را برچسب‌زنی کرده‌اند. مقاله‌های جمع آوری شده به فرمت متن تبدیل شده‌اند. سرآیند مقاله‌ها 
با فراداده‌های این بخش برچسب‌زنی شده‌اند. مجموعه‌ای از مراجع انگلیسی و فارسی از این مقاله‌ها با 
فراداده‌های آنها برچسب‌زنی شده‌اند. در مجموع ۱۰۰ سرآیند و ۳۴۲ مرجع فارسی و ۴۰۰ مرجع انگلیسی 
برای تست برچسب‌زنی و استفاده شده‌اند. 

تست با روش اعتبارسنجی عرضی پنج قسمتی " اجرا شده است. در این‌روش پیکره متون به پنج 
قسمت مساوی تقسیم و پنج بار تست انجام می‌شود. در هر بار تست یکی از پنج بخش پیکره متون برای 
تست و چهار بخش دیگر برای یاد گیری و ایجاد مدل در الگوریتم برچسب‌زنی استفاده می‌شود. در نهایت 
برای ارزیابی» میانگین نتایج پنج تست محاسبه می‌شود. برای پیاده‌سازی الگوریتم برچسب‌زنی از کتابخانه 
سی آر اف پلاس پلاس " استفاده شده است. تخمین پارامترها در این کتابخانه با الگوریتم 1-9۳05 انجام 
موه 


معیارهای ارزبابی 


جممتله۷ ععمین ۲0۱0 -1۷۵] .1 
جبلل .2 


سال ۸۷ شماره ۱ بهار و تابستان ۱۳۹۶ استخراج فراداده‌های متنی از مقاله‌های علمی... ۳۱۷ 


برای ارزیابی از سه معیار دقت ؛ فراخوانی " و معیار اف استفاده شده است. این ارزیابی برای 


توکن‌های برچسب‌زده اندازه گیری شده است؛ بنابراین به شکل زیر معیارهای ارزیابی تعریف می‌شوند: 


. 1 
۳۲6۵15108 < 0۷) 60211 2 ۸) 
۷/0 1۳۷ 
2*۳۲ 0۵ 
۲-۷6۵5 سس‎ ٩) 
۲۵65 :0۵ 


در رابطه‌های بالا "1۳ تعداد توکن‌هایی است که برچسب آنها عنوان یا نویسنده یا فراداده‌های 
گر وه تست پیت شله ات ۲ فمداه نو کن‌هاتی تامربوظ مه داده اش که رت تاک 
اشتباه نسبت داده شده است. برای مثال هنگام بررسی عنوان یک توکن جزء نویسنده است و به اشتباه 
توت عتوان را دزیافت گرده است. ۳۸۲ داد کر کن‌های مرفوظ به داده است که به اششاه بزخسب 
دیگری را دریافت کرده‌اند. برای مثال هنگام ارزیابی عنوان یک توکن که جزء تو کن‌های عنوان بوده؛ به 
فتاه پیت جکیته رافریافت کرهماست 


نتایج 

نتایج به‌دست آمده برای فراداده‌های سر آیند در جدول ۱ نمایش داده شده است. دقت استخراج 
تمامی فراداده‌ها در سطح خوبی است. بیشترین دقت برای فراداده چکیده با معیار اف برابر ۹۹/۶ درصد 
است. این فراداده تعداد توکن بسیار بیشتری نسبت به بقیه فراداده‌ها دارد. فراداده ویسنده با معیار اف برابر 
۴۳ درصد کمترین دقت را دارد. نتایج به‌دست آمده برای فراداده‌های مراجع فارسی در جدول ۲ آمده 
است. 

نتایج نشان می‌دهد دقت اکثر فراداده‌ها بالای ٩۰‏ درصد است. دقت فراداده مسسه با معیار اف 
برایر ۸۰/۹۵ درصد کمتر از بقیه است. تعداد این فراداده در پیکره متون نسبت به فراداده‌های نگ کش 
است. علاوه بر این کلمات نحوی که در این فراداده به کار می رود تنوع بیشتری دارد. این دو عامل در 


پایین آمدن دقت موّثر است. فراداده مکان بعد از موّسسه دقت پابینی نسبت به فراداده‌های دیگر دارد. 


1. 07 
2.11 

3. ۲-۱629 

4. [1۲۷۵ ۵ 
5. ۳۵۱۹۵6 ۵ 
6. ۳۵۱۹۵ 6 


۸ پژوهش‌های نظری و کاربردی در علم اطلاعات و دانش‌شناسی, دانشگاه فردوسی مشهد سال ۰۷ شماره ۱ بهار و تابستان۱۳۹۶ 


در مراجع فارسی اسامی شهرها در فراداده‌های مکان و موسسه به کار می‌رود. این مسئله باعث 
می‌ شود در برخی از موارد فراداده‌های مکان و موسسه به اشتباه تشخیص داده شوند. بهترین نتبجه برای 


فراداده تاریخ با معیار اف برایر ۹۸/۳۷ درصد به‌دست آمده است. 


جدول ۱. نتایج برچسب‌زنی فراداده‌های سرآیند مقاله 


فراداده دقت فراخوان معیار اف 
عنوان ۹۶/۸ ۹۶/۸۲ 1/۶۷ 
نویسنده ٩۳‏ ۹۳/۸ ۹۳/۳۰ 
اطلاعات نویسند گان ۹۷/۹۹ ۹۷/۰۹ ۹۷/۹۲ 
چکیده ۹۹/0۵۲ ۹۹/۶۹ ۹۹/۶۰ 
کلمات کلیدی ۹۶/۴۹ ۶۵۴ ۹,۸۲ 
مجله ۹۴/۲۹ ۹۹/۶۶ 1-۸۳ 
دوره ٩۹۹/۹۳‏ ۹۶/۵ ۹۹/۲۰ 
شماره ۹۸/۰۹ ۹۵/۹ ۶-۸۳۷ 
صفحه ۹۷/۳۷ ۹۴/۳۵ ۹۵/۹ 
تاریخ ۹۷/۱۷ ۹۸/۹ 1/۴ 

کل فراداده‌ها ۹۷/۳۱ .۹:۸۷ ۹۶/۸۹ 


جدول ۲. نتایج برچسب‌زنی فراذاده‌های مراجع فارسی مقاله 


فراداده دقت فراخوان معیار اف 
عنوان ۹,۳۳ ۹۸۹/۸۰ ۹/0۲ 
نویسنده ۸۹/۹۶ ۸۹/۵۳ ۹/۲ 
تاریخ ۹/۹۵ ۹۸۳ ۹۹/۳۷ 
منبع ۹۳/۳۸ ۹۱/۳۹ ۳۳( 
دوره ۹۹/۴۷ ۹۷/۱۸ ۹۷/۷۹ 
صفحه ۹۷/۵۵ ۹۸۹/۰۹ ۹/۳۷ 
مسسه ۸۳/۳۴ ۱۹/۴ ۸۰/۹۵ 
مکان ۱/۷ ۸۳/۳۶ ۸/۲ 
کل فراداده‌ها ۹۳/۷۵ ۹۳/۱ ۳/۸۷ 


جدول ۳. نتایج بر چسب‌زنی فراداده‌های مراجع انگلیسی مقاله 
فراداده دقت فراخوان معیار اف 


سال ۸۷ شماره ۱ بهار و تابستان ۱۳۹۶ استخراج فراداده‌های متنی از مقاله‌های علمی... ۳۱۹ 


عنوان ۹۶/۰ ۹۹/۳۷ ۹۷/۱۵ 
توانشنلاه ۹/۳/۹۰ ۹۹/۳۰ ۹۹/۵۸ 
تاریخ ۹۹/۳۳ ۹۶/۹۱ ۹0/۶۰ 
منبع ۲۳« ۹۱/۲۰ ۹/۶۵ 
دوره ۹0/۶۳ ۹۸۹/۰۱ ۹۳/۸۰ 
صفحه ۹۹/۳۱ ۹۸۹/۷۹ ۳ 
مکان ۸۸/۱۵ ۱۷۴/۸۲ ۸/۹ 
کل فراداده‌ها ۹۵/۸۰ ۴(« ۹۴/۷۵ 


در زبان فارسی کلماتی که به شکل مشترک در فراداده‌های مختلف به کار می‌روند نسبت به زبان 
انگلیسی بیشتر است. برای مثال بسیاری از اسامی ایرانی که برای نام افراد به کار می‌رود با معانی دیگر در 
فراداده‌های دیگر استفاده می‌شود. اين مستله ممکن است باعث بروز خطا شود. اکثر خطاهای به‌وجود 
آمده در استخراج فراداده‌ها مربوط به توکن‌هایی است که در مرز دو فراداده قرار دارند. نتایج استخراج 
فراداده‌های مراجع انگلیسی در جدول ۳ آمده است. فراداده صفحه از دقت بالاتری برخوردار است. 


فراداده صفحه تنوع کمتری دارد. 
جدول ۴. مقاسه نتایج برچسب‌زنی فراداده‌های سرآیند مقاله 


9 این مقاله 9 ۵( 
۵ نج 
گر (سر آیند فارسی) (2006 م۱۷۲6 20 عمصه۳) (2003 ولو 6 ص۴2) 
عنوان ۶۷ ۹۷/۱۰ ۹۶/۵ 
نوسنده ۹۳/۳۰ ۹۷/۵۰ ۹۷/۲ 
اطلاعات نویسند گان ۹۷/۹۵۲ ۹۷ ۹۳/۸ 
چکیده ۹۹/۶۰ ۹۹۸۷ ۹۳/۸ 
کلمات کلیدی ۹۶/۴۲ ۸۸/4۸ ۸۸/۵ 
تاریخ ٩/۶۴‏ ۹۵ ۹/۲ 
کل فراداده‌ها ۹۷/۰۲ ۹۵/۸۵ 1۳/۳ 
جدول ۵. مقایسه نتایج بر چسب‌زنی فراذاده‌های مراجع مقاله 
پ#ِ این مقاله این مقاله 011 011۲ 
گر (مر اجع فار سیی ! (مر اجع انگل ! (2006 محستالم۱۷۱6 20 همه۳) (2008 ,12 20 ععله ملله‌سم) 
عنوان 32 ۹۷/۱۵ ۹۹/۳ ۹۷ 
تسه ۹۸/۷۲ ۹۸/۵۸ ۹/۴ ۹۹ 
تاریخ ور ۹/۶۰ ۹۸۹/۹ ۹۹ 
منبع ۹/۸۳۳ ۹۳/۶۵ ۹۱۳ ٩۱‏ 
دوره ۹۷/۷۹ ۹۷/۸۰ ۹۷/۸ ۹۶ 


۰ پژوهش‌های نظری و کاربردی در علم اطلاعات و دانش‌شناسی» دانشگاه فردوسی مشهد سال ۰۷ شماره ۰۱ بهار و تابستان۱۳۹۶ 


صفحه 1222 ۳( ۸۶ ۹۸ 
موسسه ۸/۹۵ ۳ ۹۴ ۸۹ 
مکان ۸/۶۲ ۸/۴۹ ۸۳/۳۲ ۹۳ 
کل ۹۳/۸۷ ۹۴/۷۵ ۹۵/۶۸ ۹۵/۲۵ 
فراداده‌ها 


نتایج روشی که در این مقاله ارائه شده است. با سه پژوهشی که در زبان انگلیسی انجام شده است؛ 
مقایسه شده است. جدول ۴نتایج مقایسه فراداده‌های سر آیند و جدول ۵ نتایج مقایسه فراداده‌های مراجع را 
نشان می‌دهد. برای مقایسه از معیار اف استفاده شده است. فراداده‌هایی که در این مقاله و کارهای دیگر 
مشترک هستند. در نظر گرفته شده است. برای فراداده منبع در پژوهش‌های زبان انگلیسی» از نتایج فراداده 
میجله استفاده شده است. 

مقایسه میانگین نتایج به‌دست آمده نشان می‌دهد در فراداده‌های سر آیند نتایج پژوهش این مقاله 
بهتر از عملکرد دو پژوهش انجام شده در زبان انگلیسی است. نتایج استخراج فراداده نویسنده در 
پژوهش‌های زبان انگلیسی بهتر است. برای فراداده چکیده در پژوهش‌های انگلیسی زبان» نتایج ضعیف تری 
به‌دست آمده است. مقایسه میانگین نتایج استخراج فراداده‌های مراجع؛ نشان می‌دهد پژوهش‌های زبان 
انگلیسی با اختلاف یک تا دو درصد بهتر است. نتایج استخراج فراداده موسسه نسبت به فراداده‌های دیگر 
ضعیف تر است. مقایسه نتایج به‌دست آمده حاکی از آن است که اختلاف نتایج در اکثر فراداده‌ها بین یکك 
تا دو درصد است. 

استخراج فراداده‌های متنی از مقالات علمی برای نمابه‌سازی مقالات لازم است. این کار به‌دلیل 
تنوع مقاله‌ها یک مسئله به‌شمار می آید. در اين مقاله یک چارچوب برای استخراج فراداده‌های متنی از 
مقاله‌های علمی فارسی پيشنهاد شد. اين چارچوب شامل شناسایی سرآیند و بخش مراجع؛ تفکیک مراجع 
و پردازش سرآیند و هر یک از مراجع است. فراداده‌های سب رآیند و فراداده‌های مراجع فارسی و مراجع 
انگلیسی در این چارچوب استخراج شد. پردازش سرآیند و هر یک از مراجع توسط الگوریتم برچسب‌زنی 
سی آر اف انجام گرفت. 

به طور میانگین مقدار معیار اف در سطح توکن برای فراداده‌های سرآیند ۹۶/۸۹ درصد. برای 
فراداده‌های مراجع فارسی ٩۳/۸۷‏ درصد و برای فراداده‌های مراجع انگلیسی ٩۴/۷۵‏ درصد به‌دست آمده 


است. نتایج به‌دست آمده نشان می‌دهد که الگوریتم برچسب‌زنی سی آر اف برای استخراج فراداده‌های 


سال ۸۷ شماره ۱ بهار و تابستان ۱۳۹۶ استخراج فراداده‌های متنی از مقاله‌های علمی... ۳۲۱ 


متنی از مقاله‌های فارسی عملکرد خوبی دارد. افزایش تعداد مقاله‌ها در پیکره متون می تواند خطا را کاهش 
دهد. 
نتایج این مقاله با نتایج سه پژوهش انجام شده در زبان انگلیسی مقایسه شده است. نتایج به‌دست 
آمده نشان می‌دهد که عملکرد پژوهش این مقاله در زبان فارسی و پژوهش‌های انگلیسی زبان در استخراج 
فراداده‌ها به تکل یگ نزدیک است. 
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